AI资讯新闻榜单内容搜索-Language M

无需标注图像，VLM也能「自我进化」！RL自我进化框架VisPlay突破视觉推理难题

在 Vision-Language Model 领域，提升其复杂推理能力通常依赖于耗费巨大的人工标注数据或启发式奖励。这不仅成本高昂，且难以规模化。

来自主题: AI技术研报

8845 点击 2025-12-02 15:22

DeepSeek-V3.2｜技术报告解读

这是一篇报告解读，原文是《DeepSeek-V3.2: Pushing the Frontier of Open Large Language Models》

来自主题: AI技术研报

7295 点击 2025-12-02 10:46

通用的dLLM开发框架，让BERT掌握扩散式对话

扩散式语言模型（Diffusion Language Model, DLM）虽近期受关注，但社区长期受限于（1）缺乏易用开发框架与（2）高昂训练成本，导致多数 DLM 难以在合理预算下复现，初学者也难以真正理解其训练与生成机制。

来自主题: AI技术研报

7950 点击 2025-11-24 10:19

NeurIPS 2025 Spotlight | NYU提出QSVD，仅数学压缩让模型更轻、更快、更稳

在多模态智能浪潮中，视觉语言模型（Vision-Language Models, VLM）已成为连接视觉理解与语言生成的核心引擎。从图像描述、视觉问答到 AI 教育和交互系统，它们让机器能够「看懂世界、说人话」。

来自主题: AI技术研报

8977 点击 2025-11-17 09:53

最具争议性研究：大模型中间层输出可 100% 反推原始输入

Transformer 语言模型具有单射性，隐藏状态可无损重构输入信息。

来自主题: AI技术研报

8772 点击 2025-11-04 11:32

高效训练新标杆！华人团队开源原生VLM-NEO，以少数据追平顶级模型

当下主流的视觉语言模型（Vision-Language Models, VLM），通常都采用这样一种设计思路：将预训练的视觉编码器与大语言模型通过投影层拼接起来。这种模块化架构成就了当前 VLM 的辉煌，但也带来了一系列新的问题——多阶段训练复杂、组件间语义对齐成本高，不同模块的扩展规律难以协调。

来自主题: AI技术研报

7288 点击 2025-10-30 10:55

从掩码生成到「再掩码」训练：RemeDi让扩散语言模型学会自我纠正与反思

近期，扩散语言模型备受瞩目，提供了一种不同于自回归模型的文本生成解决方案。为使模型能够在生成过程中持续修正与优化中间结果，西湖大学 MAPLE 实验室齐国君教授团队成功训练了具有「再掩码」能力的扩散语言模型（Remasking-enabled Diffusion Language Model, RemeDi 9B）。

来自主题: AI技术研报

5675 点击 2025-10-17 09:41